#sequence packing

Mi GPU dejó de comer aire: backend en C++ para LLM

Descubre cómo optimizar la inferencia de LLM eliminando el padding con un backend en C++ y sequence packing. Mejora el rendimiento de tu GPU.